ANALYSE DES DONNEES 

L'ADD est interreliee avec 3 autres disciplines (la statistique, I'informatique, I'etude) 
Les types d'etude 

Experimentales : 

Realite observee telle qu'elle se presente (etudes d'observation) 
Recherche et developpement 
Test de produit, Test de marche. 

Non experimental : 

Manipulation de Texposition au facteur etudie pour ensuite observer I'effet 
Qualitatives : Entretiens - Observation - Cas - chainage Cognitif 
Quantitative : Questionnaires... 

Entretiens : 

Monadique : Une seul sens 

Dyadique : Approche transactionnelle - interactive (relation clt produit) 
Non directifs : 

Semi directifs : Problematique non claire 
Taille de I'echantillon : 30 au minimum : 

Ne doit pas etre representatif au sens statistique (cov=0) mais seulement au sens theorique 

Saturation theorique : Chaque fois qu'un entretien supplemental n'apporte pas d'informations 
nouvelles, toute fois I'echantillon doit etre heterogene sur le plan sociodemographique. 

ADD : Criteres de ressemblance > Triage > Classification des donnees suivant une approche logique. 

On applique I'analyse du contenu une fois les entretiens realises, les verbatives doivent etre generes 
(la retranscription mot a mot des propos d'un entretien) 

L'analyse du contenu se distingue en deux, lexicale et syntaxique [I'analyse porte sur le mot] 
Et l'analyse thematique [associations de mots] 
Magasinage : quete des nouvelles 



Browsing Butinage : aller en magasin sans avoir I'intention d'achat. 

L'analyse peut etre faite de fagon horizontale ou verticale, la premiere porte sur le verbative pris un 
a un, alors que la 2d etablie un regroupement entre tous les verbatives. 

Les entretiens peuvent etre individuels ou en groupe. 

Chainage cognitif : Analyse de la personnalite. 

Methodes projectives : le premier mot qui vous passe par la tete. 

Etude de cas : Mono cas ou multi cas. 

Pour reussir la conduite des entretiens il faut inspirer la confiance avec les repondants, cette 
confiance constitue alors la pierre angulaire pour que le repondant ne fait pas recours aux 
mecanismes de defense, ces derniers sont en nombre de 4 : 

La non reponse ou le refuge dans les mensonges 

La rationalite : approche normative 

L'imputation sur autrui 

Le refoulement : fuir la reponse. 

Les etudes qualitatives : Variables subjectives 

Mesurer (operationnaliser) les Variables abstraites : Latentes, non observables 
Satisfaction = Cognitive + Affective 
Engagement = Affectif + Calcule 
Fidelite = Comportementale + d'attitude 



Echelles 




Nominales : non metrique mesurent I'appartenance a une classe. 

Ex: Le montant de vos achats a-t 'il augmente ces trois derniers mois? - oui - non 

Ordinales: echelles de classement qui etablissent une relation d'ordre entre des objets et cela par 
rapport a un critere de classement predefini. 

Ex: classement de produits par ordre de preference, de qualite pergue 

Variable d'intervalle: il s'agit d'une echelle metrique dont les unites de mesure sont constantes et 
pour lesquelles les distances entre niveaux sont connus. 

L'origine d'une echelle d'intervalle reste toutefois arbitraire. 

Variable de rapport: dans ce type d'echelle il existe une unite de mesure predefinie (kg,cm, F...) et un 
zero naturel qui correspond a I'absence du phenomene etudie. 



Satisfaction factorielle > Satisfaction relationnelle > Confiance > Fidelite > engagement 




La validite du contenu : les questions doivent traduire et repondre a la problematique et aux 
objectifs de I'etude. (deux experts professionnels et deux linguistes) 

La validite du trait : Degre auquel on peut affirmer que le construit operationnalise permet de 
mesurer le concept qu'il est cense representer 

Validite convergente : concerne la capacite d'un test a pointer les sujets dans les categories 
realisees. 

Validite discriminante : La validite discriminante verifie I'envers de la validite convergente: il s'agit de 
savoir si seul le construit mesure est mesure par le test. En d'autres termes, il s'agit de savoir si le 
test fait bien la difference entre le construit mesure et n'importe quel autre. 



Etudes Marketing 




Echantillon De 5 a 6 fois le nombre d'items 

Aleatoire simple : chaque membre d'une population a une chance egale d'etre inclus a 
I'interieur de I'echantillon 

Aleatoire stratifie : on divise la population en groupes homogenes (appeles strates), qui sont 
mutuellement exclusifs, puis on selectionne a partir de chaque strate des echantillons independants. 

1. Segmenter la population en strates 

2. Un echantillon pour chaque strate 

Aleatoire systematique : signifie qu'il existe un ecart, ou un intervalle, entre chaque unite 
selectionnee qui est incluse dans I'echantillon. 

Echantillonnage en grappes 

La technique de I'echantillonnage en grappes entraine la division de la population en groupes ou en 
grappes comme son nom I'indique. Suivant cette technique, on selectionne au hasard un certain 
nombre de grappes pour representer la population totale, puis on englobe dans I'echantillon toutes 
les unites incluses a I'interieur des grappes selectionnees. 

Redresser un echantillon 

Dans le domaine des etudes marketing, le redressement d'echantillons a pour objectif d'ameliorer la 
representative de I'echantillon interroge, sur un certain nombre de criteres de qualification. Le 
principe sous-jacent est que seul un echantillon ayant la meme structure que la population-mere sur 
les criteres que Ton connait de cette population, permet de generaliser les reponses obtenues sur 
les autres criteres, a I'ensemble de cette population. Le redressement cherche done a appliquer des 
ponderations aux individus pour augmenter le poids de ceux appartenant a des groupes sous- 
representes dans I'echantillon interroge par rapport a la population-mere, et a reduire parallelement 
le poids de ceux qui sont surrepresentes. 



Prevision : donnees du passe 



Prediction : donnees actuelles 
Tri a plat : une seule variable 
Tri croise : plusieurs variables 



Types d'etudes : 



Echelles 


Type d'etude 


Nominales 


Descriptive 


Ordinales 


Explicative 


Intervalle 


Predictive 


Rapport 


causale 



Etude descriptive : Decrire une population a travers des variables choisis /echelle nominales 

Etudes explicatives : expliquer un phenomene 

Variables dependantes 'a expliquer : endogene' 

Une ou plusieurs variables independantes : explicatives ou endogenes 

Etude predictive : hypothese > verification de sa validite 

Analyse discriminante (echelles d'intervalle, ratio) > Analyse typologique 

Etude causale : Variable mediatrice, modulatrice 

Type d'analyse : 
Univariee : une variable 

Bivariee : deux variables (une a expliquer - explicative) 
Multivariee : (variable a expliquer - plusieurs variables explicatives) 

Variables metrique : Tests parametriques 
Variables non metrique : tests non parametriques 
Tests parametriques 

Supposent que les variables sont d'intervalle ou de rapport et qu'elles sont distribues selon une loi 
normale 

Lorsque Ton stipule que les donnees sont issues d'une distribution parametree. Dans ce cas, les 
caracteristiques des donnees peuvent etre resumees a I'aide de parametres estimes sur 
I'echantillon, la procedure de test subsequente ne porte alors que sur ces parametres. L'hypothese 
de normalite sous-jacente des donnees est le plus souvent utilisee, la moyenne et la variance 
suffisent pour caracteriser completement la distribution. Concernant les tests d'homogeneite par 



exemple, pour eprouver I'egalite des distributions, il suffira de comparer les moyennes et/ou les 
variances. 

Les tests non parametriques 

S'appliquent a des variables nominales ou ordinales, ils n'exigent pas que les donnees soient 
distributes d'une fagon particuliere. 



Lorsque Ton dispose d'un seul echantillon les tests les plus utilises sont le test de Kolmogorov- 
Simirnov et le text de chi-deux. 



Ne font aucune hypothese sur la distribution sous-jacente des donnees. On les qualifie souvent de 
tests distribution free. L'etape prealable consistant a estimer les parametres des distributions avant 
de proceder au test d'hypothese proprement dit n'est plus necessaire. 

Lorsque les donnees sont quantitatives, les tests non parametriques transforment les valeurs en 
rangs. L'appellation tests de rangs est souvent rencontree. Lorsque les donnees sont qualitatives, 
seuls les tests non parametriques sont utilisables. 

La distinction parametrique - non parametrique est essentielle. Elle est systematiquement mise en 
avant dans la litterature. Les tests non parametriques, en ne faisant aucune hypothese sur les 
distributions des donnees, elargissent le champ d'application des procedures statistiques. En 
contrepartie, ils sont moins puissants lorsque ces hypotheses sont compatibles avec les donnees. 



TESTS parametriques : 



T Student et le test F 

Permettent de comparer la moyenne des reponses de I'echantillon a celle estimee dans la 
population mere ou a une valeur theorique connue. 

Tcalcule = SCE/l/SCR/n-2 

Coefficient de correlation: R : Mesure de Tassociation entre deux variables sur une echelle 
d'intervalle ou de rapport. 



TESTS non parametriques : 



Entre variables nominales : 

Test de chi-deux : mesurer I'ajustement de la distribution des frequences d'une variable nominale ou 
bien 1'association entre deux variables nominales extraites d'echantillons independants. 

1. Une seule variable : 

Savoir si les frequences observees sont differentes de de celles estimees dans la population. 

Calcul des ecarts pour tester la probability qu'ils se produisent sous I'hypothese nulle Ho qui postule 
I'egalite des distributions. 

X 2 = Sigma l>k de (Oi- Ti) 2 / Ti : frequence observee ; T : Frequence theorique k : nombre de 
categories 



Si X 2 =0 les deux variables sont parfaitement independantes 

Plus X 2 est rand plus il est probable que les deux variables soient dependants (on n'est plus sur) 



Test de Kolmogorov-Smirnc 
Test d'ajustement ; comparer une distribution observee a une distribution theorique 
= Max (Propo cumulee observee - Prop cumule theorique) 



Analyse multi variee 



Explorer la structure d'une base de donnees, ou identifier les relations entre les variables 
appartenant a cette base. 

Methodes exploratoires : 

L'exploration de la structure d'une base de donnees. 

Analyse factorielle en composantes principales (echelles d'intervalle) 
Analyse des similarites et des preferences (echelles ordinales) 
Analyse factorielle des correspondances (echelles nominales) 
Analyse des sujets (Analyse typologique) - pour toutes les echelles 

Methodes explicatives 

Apres avoir identifier la variable a expliquer et les variables explicatives 



Tests de normalite 



lis permettent de confirmer une normalite. 

Permettent de verifier si des donnees reelles suivent une loi normale ou non. Les tests de normalite 
sont des cas particuliers des tests d'adequation (ou tests d'ajustement, tests permettant de 
comparer des distributions), appliques a une loi normale. 



Test de Shapiro Wilk 

II compare une distribution observee a une loi Gaussienne. 
HO : La repartition observee est compatible avec la normalite. 



Test de Kolmogorov-Smirnov 

Les distributions doivent etre continues. Meilleur que le precedent si les effectifs sont gros (n>2000). 
Base sur la loi forte des grands nombres (fonction de repartition empirique). 
HO : G1=G2 



Les Coefficients d'asymetrie et d'aplatissement sont egalement utiles pour definir une loi normale. 
Pour I'aplatissement : le degre de concentration des observations 



G 2 = 



(n+ l)n 




(n - \f 



(n-\)(n-2) (n-3) 



(n-2)(n-3) 



Et pour I'asymetrie : la symetrie de la distribution des reponses autour de la valeur centrale 



Avec (J est la racine d'un estimateur non biaise de la variance. 
Test d'ajustement et d'interference : 

Ajustement : verifier I'ajustement de la distribution des frequences ou de la moyenne a une 
distribution theorique ou a une moyenne connue 

Interference : variance, regression : la relation particuliere qu'entretiennent deux variables ou plus 
de deux variables 



L'analyse factorielle cherche a reduire un nombre important d'informations (prenant la forme de 
valeurs sur des variables) a quelques grandes dimensions. Comme dans toute analyse statistique, on 
tente done d'expliquer la plus forte proportion de la variance (de la covariance dans le cas de l'analyse 
factorielle) par un nombre aussi restreint que possible de variables (appelees ici composantes ou 
facteurs). On utilise le terme de variables latentes pour parler de ces variables qui existent au plan 
conceptuel seul et qui ne sont pas mesurees. 



Identifier un ensemble de dimensions latentes (non observables) a partir d'un seul ensemble plus 
grand de variables initiales, il s'agit alors de decouvrir une structure sous-jacente (nature et nombre 
de dimensions) 

Par exemple : a partir de 255 questions posees dans le test de personnalite 15 dimensions peuvent 
etre identifies qu'on appelle facteurs. 

Purification des donnees > transformation des donnees non metriques et D metriques 

L'analyse factorielle en composantes simples : la construction d'echelles destinees a mesurer des 
caracteristiques individuelles de consommateur ou d'entreprises : 

Par exemple : 14 items mesurant la confiance envers la marque peuvent se reduire en trois 
dimensions ; la credibility I'integrite et la bienveillance. 




ANALYSE FACTORIELLE EXPLORATOIRE ET CONFIRMATOIRE 



ANALYSE FACTORIELLE EXPLORATOIRE - ACP 



Si les variable etudiees sont independantes les unes des autres I'analyse factorielle ne sert a rien car 
elle fournira autant de facteurs que de variables, il est done dans ce cas impossible de resumer 
['information 

Matrice de correlation sou matrice de covariance : I'analyse factorielle permet d'effectuer une 
classification automatique ou typologique. 

II est preferable d'utiliser la matrice de covariance lorsqu'on envisage une comparaison des 
structures factorielles entre groupes. 



Pour determiner si les correlations existantes sont suffisantes pour effectuer une analyse factorielle 
on utiliser Ies3 indicateurs : Test de sphericite de Barlett, KMO, MSA 

Choix d'une analyse factorielle exploratoire : 

L'analyse doit ensuite choisir entre I'analyse en composantes principales ACP et I'analyse en facteurs 
communs AFC la difference repose sur la nature des facteurs 

ACP : facteurs : indices formes par les variables (indicateurs formulatifs des composantes) 

Appropriee lorsque Ton cherche a predire les scores des sujets des facteurs, calculer les indices, 
reduire I'ensemble des variables ou encore expliquer la variance 

AFC : variables : reflet de facteurs latents (indicateurs reflectifs) 

Lorsqu'on cherche a mettre en evidence des dimensions ou des construits latents dont les variables 
observees ne sont que le reflet et qu'on cherche a eliminer I'erreur ou la variance specifique 
contenue dans chaque variable 

Validation de I'analyse factorielle : 

La generalisation des resultats obtenus sur la population necessite une replique sur un groupe tire 
aleatoirement de la population 

Pour verifier I'identite des structures entre deux analyses factorielles exploratoires ; on peut 
effectuer une analyse factorielle confirmatoire ; celle-ci permet la comparaison de la structure 
factorielle obtenue entre les deux groupes. 

Analyse confirmatoire : Analyse + confirmation du modele 
Transformation en variable metrique (base virtuelle) 
Purifier 

Analyse factorielle exploratoire : faire emerger une theorie et concevoir un modele theorique 

Analyse factorielle confirmatoire : mettre a I'epreuve des hypotheses specifiques concernant 
I'influence des variables latentes sur les donnees recueillies ; elle permet de tester un modele 
theorique. 



Analyse Marketing : 

Etape 1 : Test de normalite des donnees : Reponses etalees = concentration des donnees 
La loi des grands nombres : loi normale 
Choix d'un grand echantillon pour normalise les donnees 
Bootstart : Etirassions (essais) augmenter la finalisation 
Test d'asymetrie < |2| 
Test d'aplatissement < |7| 
Factorisabilite des donnees 
Analyse des donnees > Donnees factorisables 
TEST KMO > 0,5 

Loading ou qualite de representation des items 

2. Calcul de la variance expliquee : min=60% 

Rotation diagonale 
Rotation anti diagonale 



Influence mutuelle des items 



Alpha de Cronbach 

Plus la valeur alpha s'approche de 1, plus I'ensemble d'elements est homogene. 

k 



( _=_) (i — i^i— 

x k-l J v Y,Vi+ 2Cov ij 



Inconvenient : sensible au nombre d'items k 
Exemple : 





Item 1 


Item2 


Item3 


Reponse 1 


4 


5 


3 


Reponse 2 


2 


3 


1 


Reponse 3 


5 


4 


2 



Matrice transposee 




50=4*5+5*5+3*3 (l^ re ligne matrice initiale * l^ re colonne matrice transposee) 
26=2*4+3*5+1*3 (2eme ligne matrice initiale * l^ re colonne matrice transposee) 
.... And so on 



=(— ) C 1 - 



109 



-= 0,96 



109+ 2*96 
109= 50+14+45 96=26+46+24 



Rho de Joreskog : Validite convergente : 

resout le probleme de sensibilite au nombre d'items 



^ alpha * 2 /^ alpha i 2 + ^ 



Vai 



Validite predictive : Resultat prevu du terrain 



Test de mediation 



X : Confiance : ► Y : Fidelite 

Z : Engagement 



l* re condition : Relier x avec z par le billet de la regression lineaire simple, on verifie la signification 
des elements suivants : R 2 ajuste, coefficient standardise B, T de student 

A preciser R 2 a depend de la taille de I'echantillon (Ts> 0,96 pour un seuil de 5%) 

2* me condition : On regresse y par rapport a x et on applique la meme logique . 

3 6me condition : On regresse z par rapport a x et y 

1. Tester les relations (Test de Student) 

2. La nature du mediateur (partiel ou total) (Test de Sobel) 
Mediateur total : Si I'influence de x/z disparait en presence de y 
Si non on parle de mediateur partiel 

3. Calcul de la part de I'effet mediateur par rapport a I'effet total 
Combien de Y pour avoir Z 

Validite du contenu du questionnaire > Collecte des donnees 
Rho de Joreskog : Validite convergente 



Validite predictive : Resultat prevus = Resultats sur le terrain ( ?) 



